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摘要 : [目的 /意义 ] 对 《信息 处 理 与 管理 》2000-2020 年 刊载 论文 进行 主题 分 析 ， 以 了 解 
IPM 期 刊 的 主题 侧重 与 演进 趋势 ， 为 计算 机 与 信息 科学 领域 发 展 及 相关 研究 提供 参考 。[ 方 法 / 
过 程 ] 首先 ， 基 于 ScienceDirect 全 文 数据 库 中 的 1 852 篇 研究 论文 ， 对 论文 标题 、 摘 要 与 关键 
词 进行 统计 与 可 视 化 ， 划 分 主题 大 类 ; 其 次 ， 对 各 类 别 的 研究 主题 进行 系统 梳理 ; 最 后 ， 比 较 
不 同时 期 的 研究 重点 ， 分 析 主 题 演 进 趋势 。 [ 结果 /结论 IPM 主要 关注 信息 检索 、 文 本 分 析 、 
用 户 研 究 3 类 主题 ， 总 体 呈 现 出 始终 以 信息 检索 为 核心 主题 、 从 文本 与 信息 分 析 向 多 媒体 与 知 


识 分 析 转 变 、 对 用 户 情 感 的 深入 分 析 与 挖掘 等 演变 特征 。 
关键 词 : 《信息 处 理 与 管理 》 IPM 计算 机 与 信息 科学 “主题 分 析 
分 类 号 : G201 


引用 格式 : AGAT, 杜 查 叶 . 近 20 年 计算 机 与 信息 科学 领域 研究 进展 : IPM 期 刊 主题 分 析 [J/OL]. 知识 


管理 论坛 2022, 7(2): 24-36[ 引用 日 期 ]. http://www.kmf.ac.cn/p/272/. 


L1 EIESI IPM) 于 1963 年 创刊 ， 其 最 初 名 为 《信息 存储 
数字 化 、 网 络 化 与 智能 化 时 代 的 到 来 ， 为 与 检索 》 (Information Storage and Retrieval, 

计算 机 与 信息 科学 领域 的 发 展 带 来 了 巨大 冲击 ， ISRO. A 1975 年 正式 更 名 为 PM, 并 延续 至 今 。 

也 使 得 相关 研究 迅速 增多 ,研究 主题 发 生变 化 。 根据 SCLJCR 数据 ， 该 刊 2020 年 的 引用 评分 


作为 科研 成 果 的 主要 载体 和 传播 平台 ， 科 技 期 CCiteScore) 为 86， 影 


向 因子 为 6.222， 在 计 


刊 在 学 术 交 流 中 承担 着 重要 的 使 命 凸 。 对 科技 期 算 机 科学 与 信息 系统 (COMPUTER SCIENCE， 
刊载 文 进行 主题 分 析 ， 能 够 更 好 地 了 解 该 学 科 INFORMATION SYSTEMS) 以 及 情报 学 与 图 书 


领域 的 研究 进展 与 演进 特征 。《 信 息 处 理 与 管 ” 馆 学 (INFORMATION 


SCIENCE & LIBRARY 


理 》 (Information Processing and Management , SCIENCE ) 类 别 中 均 位 列 一 区 。7PM 致力 于 发 
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表 计 算 机 与 信息 科学 交叉 领域 的 前 沿 研究 成 果 ， 
在 国内 外 计算 机 与 信息 系统 界 乃 至 图 书 情报 界 
均 具有 高 影响 力 与 高 知名 度 ， 为 推动 领域 进步 
做 出 了 重要 贡献 。 因 此 ， 对 IPM 期 刊 的 发 文 主 
题 进行 系统 梳理 ， 能 够 在 一 定 程度 上 反映 计算 
机 与 信息 科学 领域 的 研究 进展 ， 展 现 IPM 为 领 
域 发 展 所 做 出 的 学 术 贡 献 。 

已 有 学 者 针对 IPM 进行 了 主题 分 析 。F. E. 
DeHart 对 IPM, JASIS ( Journal of the American 
Society for Information Science ) 和 JD ( Journal 
of Documentation ) 3 个 期 刊 1987-1990 年 所 发 表 
论文 的 参考 文献 进行 分 析 ， 着 重 比 较 了 引用 专 
著 的 比例 ， 发 现 IPM 在 1989-1990 年 引用 专著 
最 多 的 3 个 主题 分 别 为 信息 存储 和 检索 系统 、 
人 工 智 能 、 话 语 分 析 中 ; M. Y. Tsay 对 1998- 
2008 年 JASIST ( Journal of the American Society 
for Information Science and Technology ) , IPM 
fl JD 3 个 期 刊 进行 文献 计量 分 析 与 比较 ， 发 现 
IPM 引 用 期 刊 论文 最 多 的 3 个 主题 分 别 为 搜索 、 
在 线 信 息 检索 、 信 息 工 作 ， 引 用 书籍 最 多 的 3 
个 主题 分 别 为 信息 存储 和 检索 系统 、 信 息 检 索 、 
计算 机 算法 U, 王 日 芬 等 对 2006-2015 年 《现代 
图 书 情报 技术 》 及 IPM 等 国内 外 相似 期 刊 的 发 
文 特征 进行 比较 分 析 ， 发 现 信息 检索 是 IPM 期 
刊 最 大 的 研究 热点 ， 其 他 热点 还 有 用 户 行为 分 
析 、 文 本 挖 气 算 法 、 文 本 分 类 、 语 义 分 析 等 外。 
可 以 看 出 ， 此 前 研究 均 是 将 IPM 与 其 他 期 刊 进 
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行 比较 分 析 ， 且 大 多 是 定量 分 析 ， 而 较 少 关注 
各 个 研究 主题 的 内 涵 演 变 。 因 此 ， 笔 者 对 IPM 
近 20 年 (2000-2020 年 ) 的 发 文 主题 进行 系统 
梳理 ， 以 了 解 IPM 期 刊 发 文 的 主题 侧重 与 演进 
趋势 ， 为 计算 机 与 信息 科学 领域 发 展 及 相关 研 
究 提 供 参考 , 也 为 图 书 情报 领域 提供 有 益 借 鉴 。 
@ 数 据 与 方法 
2000-2020 年 间 ，7PM 共 刊 发 1 852 篇 研究 论 

文 。 利 用 ScienceDirect 全 文 数据 库 将 论文 数据 导 
出 ， 形 成 可 供 统计 分 析 的 数据 源 。 首 先 ， 对 论文 
关键 词 词 频 进行 统计 ， 绘 制 关键 词 词 云图 ( 见 图 
1) , 发 现 研 究 热点 主要 涉及 信息 检索 (information 
retrieval) , L4 5€ 2J (machine learning) 、 自 
然 语言 处 理 (natural language processing) 、 查 
18 H JiÉ (query expansion ) 、 社 交 媒 体 (social 
media ) 、 情 感 分 析 (sentiment analysis ) 、 文 本 
分 类 (text classification ) 、 信 息 搜 寻 (information 
seeking) 等 主题 。 其 次 ， 提 取 论 文 标题 与 摘要 ， 
利用 VOSviewer 进行 共 现 分 析 ， 得 出 共 现 网 络 
( 见 图 2) ， 从 图 2 中 可 以 明显 看 出 ， 研 究 
主题 主要 分 为 三 大 类 : 信息 检索 (information 
retrieval) 、 文 本 分 析 (text analysis ) 和 用 户 研 究 

(user research ) 。 最 后 , 基于 1 852 篇 研究 论文 ， 
从 信息 检索 、 文 本 分 析 和 用 户 研 究 三 大 类 别 出 发 ， 
对 IPM 近 20 年 的 研究 主题 进行 梳理 ， 并 比较 不 
同时 期 的 研究 重点 ， 得 出 主题 演进 趋势 。 
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2 2000-2020 年 /PM 标题 与 摘要 共 现 网 络 


@ 1PM 主题 分 析 


3.1 第 一 大 主题 : 信息 检索 

信息 检索 是 20 世纪 50 年 代 在 国外 兴起 的 
一 门 新 兴学 科 ， 主 要 研究 的 是 信息 的 表示 、 存 
储 、 组 织 与 访问 趾 。 在 过 去 20 年 中 ， 信 息 检 索 
一 直 是 IPM 期 刊 关注 的 重点 ， 涉 及 的 主题 包括 
信息 检索 模型 (information retrieval model) 、 
搜索 引擎 (search engine) 、 图 像 检 索 (image 
retrieval ) 等 方面 。 
3.1.1 信息 检索 模型 

信息 检索 模型 指 描述 信息 检索 中 的 文档 、 
查询 和 它们 之 间 关 系 (匹配 函数 ) 的 数学 模型 S, 
常用 的 检索 模型 有 布尔 检索 模型 、 概 率 模型 、 疝 
量 空间 模型 、 请 言 模型 、 排 序 模型 等 类 型 。JPM 
相关 研究 基本 围绕 概率 模型 展开 ， 如 K. Sparck 
Jones 等 开发 了 信息 检索 概率 模型 " ，， 该 模型 是 
对 其 团队 于 1976 年 提出 的 概率 模型 的 改进 外， 
也 是 目前 最 广 受 认可 的 检索 模型 ， 许 多 研究 在 该 
模型 的 基础 上 进行 改动 ， 形 成 了 较为 普遍 的 应 用 
形式 ， 见 公式 (1) "°; 


sim(Q, D) = 
(r, 0.5) /(R-r, 0.5) f 
2,198 (n; 5 40.5)/(N -n, - R* r, 0.5) 
(& * 1f, ( * Ddf, 
K * f, k, * qf, 


公式 (1) 
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Hep, f 指 检索 文档 中 词 项 i 出 现 的 次 数 ， 
qf 指 查 询 中 词 项 i 出 现 的 次 数 , NN 指 整个 检索 
文档 数据 集合 的 大 小 ，r; 指 包含 词 项 i 的 相关 文 
档 的 数量 ，n; 指 包含 词 项 i 的 文档 的 数量 , RH 
和 查询 相关 的 文档 集合 的 大 小 , K ok. RE Y 
根据 经 验 设 定 的 超 参数 5 。 

其 他 学 者 也 从 多 个 角度 出 发 构建 了 信息 检 
索 概 率 模型 ， 并 进行 了 实验 测试 。Z. B. Xu 等 
开发 了 一 种 基于 狄 利克 雷 复合 多 项 式 (Dirichlet 
Compound Multinomial，DCM ) 分 布 的 信息 检 
索 概 率 模型 ， 能够 实现 高 效 检索 和 准确 排名 "1; 
F. Dahak 等 针对 XML 信息 检索 ， 建 立 了 一 个 利 
用 用 户 期 望 来 估计 上 下 文 重要 性 的 概率 模型 ， 
并 通过 实验 证 明了 其 有 效 性 所 。 此 外 ， 向 量 空 
间 模 型 与 排序 模型 也 受到 了 广泛 讨论 ， 如 X.Y. 
Tai 等 提出 一 种 基于 向 量 空间 模型 ( VSM ) 的 信 
息 检 索 模型 ， 能 够 利用 用 户 提 供 的 相关 信息 来 
提高 检索 性 能 外; J. F. Guo 等 分 析 比 较 了 神经 
排序 模型 的 基本 假设 、 设 计 原 则 和 学 习 策 略 ， 
并 讨论 了 学 习 索 引 、 利 用 外 部 知识 学 习 、 利 用 
可 视 化 技术 学 习 、 利 用 语 境 学 习 、 神 经 排序 模 
型 理解 等 未 来 发 展 趋势 "“"。 整 体 而 言 ， 相 关 研 
究 主要 关注 检索 模型 的 构建 、 测 试 、 比 较 与 改进 ， 
目的 是 提升 信息 检索 系统 性 能 ， 实 现 更 高 精度 
的 信息 检索 。 
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3.1.2 搜索 引擎 

在 搜索 引擎 方面 ， 相 关 研 究 集 中 在 搜索 引 
擎 的 检索 性 能 评估 、 查 询 扩展 和 相关 反馈 以 及 
网 页 排名 算法 等 方面 。 关 于 检索 性 能 评估 ，LL. 
Vaughan 基于 查 准 率 和 查 全 率 的 概念 ， 提 出 一 组 
测量 方法 ， 用 于 评估 搜索 引擎 性 能 与 稳定 性 ， 
实验 结果 表明 该 测量 方法 能 够 有 效 区 分 搜索 引 
SEVERE UT; F. Can 等 认为 人 为 评估 搜索 引擎 检 
索性 能 成 本 较 高 ， 因 此 引入 一 种 自动 搜索 引擎 
评估 方法 ， 并 通过 实验 证 明 其 评估 结果 与 人 为 
评 人 一致" 。 作 为 查询 优化 的 重要 分 支 ， 查 询 
扩展 主要 通过 用 户 查 询 日 志 与 用 户 相 关 反 馈 等 
来 源 中 的 信息 ， 对 用 户 的 查询 进行 扩展 ， 如 了 HH. 
Kim 等 提出 了 一 种 基于 用 户 查 询 日 志 聚 类 的 方 
法 ， 能 够 在 一 定 程度 上 弥补 用 户 查 询 和 检索 系 
统 间 的 词汇 鸿沟 5; S. Jung 等 以 搜索 引擎 用 户 
的 点 击 数据 作为 隐 式 相关 反馈 的 信息 来 源 ， 讨 
论 了 相关 反馈 的 可 靠 性 及 其 变化 中 。 此 外 ， 查 
询 扩 展 还 更 加 关注 基于 语义 的 相关 反馈 技术 ， 
以 应 对 查询 和 文档 间 的 语义 鸿沟 ， 如 J. M. Wang 
等 提出 了 一 种 结合 相关 匹配 和 语义 匹配 的 伪 相 
关 反 馈 ， 以 提高 反馈 文档 质量 ""。 在 网 页 排名 
算法 方面 ， 在 PageRank, HITS 和 OPIC 等 主流 
算法 的 基础 上 ， 众 多 学 者 开发 了 更 高 效 的 排名 
算法 ， 如 A.M. Z. Bidoki 等 提出 了 一 种 基于 强 
化 学 习 的 DistanceRank 算法 ， 将 两 个 网 页 间 的 
“平均 点 击 次 数 ” 定 义 为 距离 ， 距 离 较 小 的 页 
面 能 够 具有 更 高 的 排名 ， 实 验 结果 表明 该 算法 
在 网 页 排名 和 抓 取 调 度 方 面 优 于 其 他 算法 U"1, 
3.1.3 图 像 检索 

在 文本 检索 的 基础 上 ， 以 图 像 、 音 频 、 视 
频 作 为 检索 对 象 的 多 媒体 检索 技术 逐渐 发 展 起 
来 , IPM 相关 研究 则 主要 集中 在 图 像 检索 领域 。 
2000 年 后 ， 图 像 检 索 从 基于 文本 的 图 像 检 索 
( Text-based Image Retrieval, TBIR ) 回 基 于 内 
容 的 图 像 检 索 (Content-based Image Retrieval, 
CBIR ) 发 展 。CBIR 的 基础 即 是 对 图 像 的 颜色 、 
纹理 、 形 状 等 内 容 特征 进行 选择 、 提 取 和 表示 ""， 
相关 研究 也 基本 从 该 角度 出 发 。 如 P. W. Huang 
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等 基于 纹理 相似 度 ， 提 出 了 两 种 纹理 特征 表示 
方法 ( CSG-vector 和 EDP-string ) ， 并 据 此 设计 
了 高 效 的 图 像 检索 系统 后 ; T. C. Lu 等 针对 图 像 
的 颜色 特征 ， 以 颜色 分 布 、 平 均值 和 标准 差 表 
示 图 像 的 全 局 特征 ， 以 图 像 位 图 表示 图 像 的 局 
部 特征 ， 以 提高 图 像 检 索 的 准确 性 站。 然而 ， 
基于 内 容 的 图 像 检 索 也 存在 难以 跨越 的 语义 鸿 
沟 外 ,为 此 ， 基 于 语义 的 图 像 检 索 技 术 逐 渐 发 
REK, S. Pandey 等 便 提 出 了 一 种 用 于 语义 分 
类 分 层 图 像 数 据 库 的 语义 和 图 像 检 索 系 统 ， 使 
得 图 像 被 映射 到 多 维特 征 空间 的 同时 ， 图 像 语 
义 也 能 够 通过 聚 类 和 索引 被 表示 出 来 ， 最 终 实 
现 所 需 语义 和 对 应 图 像 的 高 效 检 索 PI 
3.2 第 二 大 主题 : 文本 分 析 

文本 分 析 即 对 文本 内 容 进行 表示 和 特征 
提取 ， 使 得 文本 能 够 被 计算 机 识别 与 处 理 ， 从 
而 判断 文本 主题 以 及 文本 提供 者 的 态度 和 情 
£i. IPM 中 有 关 文 本 分 析 的 研究 主要 集中 在 文 
Zk 5 d (text mining) 、 情 感 分 析 ( sentiment 
analysis ) 、 知 识 图 谱 ( knowledge graph ) 等 方面 。 
3.2.1 文本 挖掘 

针对 潜藏 于 电子 形式 中 的 大 量 文 本 数据 ， 
文本 挖掘 能 够 从 中 抽取 事先 未 知 的 、 可 理解 的 、 
最 终 可 用 的 知识 ， 并 运用 这 些 知识 更 好 地 组 织 
信息 以 支持 参考 利用 呈 ”1。IPM 相关 研究 基本 
围绕 文本 分 类 与 文本 聚 类 展开 。 其 中 ， 文 本 分 
类 指 将 文档 组 织 为 预先 定义 好 的 类 别 ， 通 常 使 
用 机 器 学 习 算 法 外， 如 和 A. Elnagar 等 比较 了 常 
用 的 阿拉 伯 语 文本 分 类 深度 学 习 模 型 ， 并 提出 
了 一 个 完全 基于 深度 学 习 模 型 的 分 类 方法 P1 
同时 ， 文 本 分 类 针对 的 文本 特征 也 从 简单 的 
词 、 短 语 和 句子 发 展 为 语法 和 语义 特征 ， 如 A. 
Mohasseb 等 针对 问答 系统 中 的 问题 分 类 ， 提 出 
了 一 种 基于 语法 的 分 类 框架 ， 能够 有 效 区 分 不 
同 的 问题 类 型 中，Z. Kastrati 等 提出 了 一 种 语 
义 丰 富 的 文档 表示 模型 ， 能 够 对 金融 文档 进行 
自动 分 类 中。 在 文本 聚 类 方面 ， 众 多 学 者 提出 
了 各 种 聚 类 算法 以 优化 聚 类 性 能 ， 如 G. B. Hu 
等 开发 了 一 种 基于 K-Means 聚 类 算法 的 半 监 督 
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rac 
聚 类 方法 ， 能 够 对 聚 类 过 程 进行 约束 P; C. L. 
Chen 等 提出 了 一 种 基于 频繁 模糊 项 集 的 分 层 聚 
类 方法 ， 旨 在 提高 分 层 聚 类 精度 中， 还 有 学 者 
提出 了 用 于 文档 聚 类 的 概率 模型 与 算法 ， 并 通 
过 实验 证 明 其 性 能 优 于 此 前 广泛 使 用 的 模型 与 
算法 5。 此 外 ， 也 有 研究 从 应 用 场景 出 发 ， 
探讨 了 文本 挖掘 在 信息 检索 5 、 用 户 服务 P 
专利 分 析 my、 话题 识别 P9 等 领域 的 应 用 方法 与 
实践 效果 。 
3.2.2 情感 分 析 

论坛 、 博 客 等 各 类 社交 媒体 的 发 展 以 及 以 
大 众 点 评 为 代表 的 点 评 网 站 的 出 现 ， 为 大 众 提 
供 了 情绪 交流 与 消费 点 评 的 开放 式 平台 所， 也 
因此 产生 了 大 量 的 针对 产品 、 服 务 、 事 件 、 话 
题 等 实体 的 观点 、 情 感 、 评 价 、 态 度 与 情绪 六 1。 
情感 分 析 ， 或 称 观 点 挖掘 ， 便 是 利用 自然 语言 
处 理 和 文本 挖掘 技术 ， 对 这 些 带 有 情感 色彩 的 
主观 性 文本 进行 分 析 、 处 理 和 抽取 的 过 程 UU 
IPM 中 的 情感 分 析 研 究 主要 以 社交 媒体 为 依托 
平台 ， 从 用 户 发 布 内 容 或 评论 中 分 析 其 观点 和 
情绪 ， 如 A. Balahur 等 与 S. M. Mohammad 等 以 
Twitter 为 例 , 分 析 了 推 文中 的 情感 、 情 绪 、 目 的 、 
风格 以 及 相应 的 情感 分 析 系 统 97; A. Severyn 
等 针对 YouTube. 上 大 量 的 用 户 生 成 内 容 ， 构 建 
了 能 够 应 对 新 领域 或 新 语言 的 观点 挖掘 模型 ， 
并 通过 实验 进行 了 验证 外。 还 有 学 者 分 析 了 用 
户 对 产品 或 服务 的 评价 ， 以 挖掘 其 中 的 态度 与 情 
绪 ， 如 M. Al-Smadi 等 提出 了 一 种 基于 监督 机 带 
学 习 的 方法 , 能 够 对 酒店 评论 进行 情绪 分 析 UU. 
在 情感 分 析 的 过 程 中 ， 研 究 者 构建 了 许多 用 于 不 
同 场景 的 情感 分 析 模 型 ， 如 A. Kumar 等 提出 了 
一 种 用 于 文本 和 视觉 社交 数据 中 细 粒 度 情感 分 析 
的 深度 学 习 模 型 7. 7, Mahmood 等 则 开发 了 罗 
马 乌 尔 都 语 语料库 ， 并 以 此 为 依据 开发 了 一 种 用 
于 挖掘 情绪 和 态度 的 深度 学 习 模型 S, 
3.2.3 知识 图 谱 

知识 图 谱 本 质 上 是 揭示 实体 /概念 之 间 语 
义 关系 的 语义 网 络 9. IPM 相关 研究 主要 涉及 
知识 图 谱 技术 、 知 识 图 谱 构建 与 知识 图 谱 应 用 3 
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个 方面 。 在 知识 图 谱 技 术 方 面 ， 众 多 学 者 以 知 
识 实 体 的 抽取 为 主 ， 探 讨 了 知识 图 谱 中 的 知识 
抽取 与 知识 表示 ， 如 H. C. Cho 等 研究 了 多 段 表 
示 的 命名 实体 识别 P; L. Derczynski 等 描述 了 
一 个 Twitter 实体 消 歧 数据 集 ， 并 对 推 文中 的 命 
名 实体 识别 和 消 歧 进 行 了 实证 分 析 P"; X. Tang 
等 提出 了 一 种 多 源 知 识 表 示 学 习 的 模型 ， 以 结 
合 实 体 描述 、 层 次 类 型 和 文本 关系 ， 提 高 知识 
表示 有 效 性 号 。 在 知识 图 谱 构建 方面 ， 相 关 研 
究 主要 以 语料库 为 基础 ， 构 建 基于 语义 关系 的 
知识 图 谱 ， 如 I Bounhas 等 从 阿拉 伯 语 的 有 声 语 
料 库 中 构建 了 一 个 形态 语义 知识 图 谱 ， 利 用 上 
下 文 知识 来 推断 实体 之 间 的 语义 依赖 关系 ， 并 
评估 了 文档 索引 和 查询 扩展 的 集中 使 用 场景 后 。 
在 应 用 方面 ， 知 识 图 谱 可 以 应 用 至 检索 系统 、 
问答 系统 、 大 数据 分 析 等 领域 ， 如 D. F. Li 等 提 
出 了 一 种 级 联 模型 ， 能 够 同时 考虑 语义 特征 和 
图 谱 特 征 ， 并 设计 了 不 同 的 级 联结 构 ， 以 用 于 
知识 推理 和 检索 07; S. Shin 等 针对 问答 系统 中 
咨询 问题 的 含义 ， 设 计 了 一 种 谓词 约束 词典 ， 
并 提出 了 基于 该 种 谓词 约束 的 问答 系统 ， 能 够 
提高 搜索 准确 性 中; F. Janssens 等 选择 了 图 书 
情报 领域 的 5 本 期 刊 ， 对 其 2002-2004 年 间 刊 载 
的 近 千 篇 文献 进行 了 计量 分 析 ， 利 用 知识 图 谱 
绘制 了 可 视 化 术语 网 络 1。 
3.3 第 三 大 主题 : 用户 研究 

对 用 户 的 信息 获 了 到、 查寻 、 利 用 等 行为 进 
行 研究 ， 有 助 于 信息 服务 机 构 更 具 针 对 性 地 改 
进 信息 服 务 系统 性 能 ， 提 升 服务 质量 中 。 信 
息 搜寻 行为 (information seeking behavior) 、 
用 户 生 成 内 容 (user generated content) 、 个 
性 化 服务 与 人 机 交互 (personalized service & 
human-computer interaction ) 是 用 户 研 究 主要 
关注 的 主题 。 
3.3.1 信息 搜寻 行为 

信息 搜寻 行为 指 个 体 为 满足 某 些 目标 需求 
而 有 目的 地 搜寻 信息 ， 除 包括 普遍 意义 上 的 信 
息 搜 索 外 ， 信 息 搜寻 更 侧重 于 满足 整个 信息 需 
求 的 完整 过 程 ， 探 索 用 户 搜寻 行为 背后 的 原因 、 
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影响 因素 、 用 户 特征 和 个 人 差异 等 方面 5。 许 
多 学 者 针对 不 同类 型 的 用 户 ， 分 析 了 其 信息 搜 
寻 行 为 的 特征 ， 如 S. Makri 等 通过 对 27 位 律 
师 的 信息 搜寻 行为 进行 分 析 ， 提 出 了 对 Ellis fri 
息 搜 寻 行 为 模型 的 改进 站; H. R. Jamali 等 对 
物理 和 天 文学 研究 人 员 的 信息 搜寻 行为 进行 了 
调查 ,揭示 了 不 同学 科 在 信息 搜寻 行为 上 的 差 
异 ， 并 发 现 跨 学 科 领 域 更 有 可 能 使 用 通用 搜索 
工具 来 获取 信息 中; M. Lykke 等 调查 了 医生 的 
信息 搜寻 行为 ， 发 生 多 数 医生 能 够 利用 系统 特 
征 和 搜索 策略 生成 结构 良好 的 查询 "1 。 此 外 ， 
随 着 社会 水 平 的 不 断 提 高 ， 人 们 对 健康 信息 的 
需求 也 逐渐 增多 ， 健 康信 息 行为 受到 了 更 加 广 
泛 关 注 ， 相 关 研 究 从 不 同 角度 着 手 分 析 了 健康 
言 息 行为 。 如 针对 健康 信息 需求 ，W.J Pian 等 
系统 梳理 了 消费 者 健康 信息 需求 理论 ， 指 出 未 
来 应 关注 的 社会 和 情感 维度 中 ;针对 健康 信息 
提供 方 ，X. F. Zhang 等 探讨 了 医生 在 网 络 平台 
分 享 健康 信息 的 动机 ， 发 现 除 物质 动机 外 ， 职 
业 动 机 起 着 主要 作用 "1; 针对 健康 信息 获取 方 ， 
I. Huvila 等 研究 了 中 老年 人 的 健康 信息 行为 偏 
好 和 动机 ， 并 将 其 与 年 轻 人 和 老年 人 的 健康 信 
息 行为 进行 了 比较 的 。 还 有 研究 对 健康 信息 规 
避 行 为 进行 了 分 析 9， 以 促进 入 们 对 健康 信息 
的 搜寻 。 
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3.3.2 用 户 生 成 内 容 

用 户 生 成 内 容 是 随 着 Web 2.0 兴起 而 发 展 起 
来 的 一 种 网 络 信息 资源 创作 与 组 织 模式 ， 指 用 
户 以 各 种 形式 在 网 络 上 创作 的 文字 、 图 片 、 视 
MERR, IPM 相关 研究 较 少 直接 讨论 用 户 
生成 内 容 的 理论 基础 , 而 是 将 其 作为 观点 挖掘、 
情感 分 析 、 熏 情 管 理 等 领域 研究 的 数据 来 源 来 
进行 分 析 。 如 A. Severyn 等 对 YouTube 上 的 用 
户 生成 内 容 进 行 了 观点 挖掘 由; Y. D. Ge 等 探 
讨 了 用 户 生成 内 容 中 的 情绪 对 股市 的 影响 7; 
L. F. Li 等 研究 了 自然 灾害 发 生 后 社交 媒体 上 公 
众 的 负面 情绪 ， 以 及 具有 大 量 追 随 者 的 用 户 的 
发 言 对 转发 数量 的 影响 的。 此外， 社交 媒体 上 
的 用 户 生 成 内 容 还 可 能 会 造成 谣言 和 虚假 新 闻 
的 传播 ， 学 者 们 对 谣言 的 识别 和 检测 进行 了 研 
Fo Y. H. Liu 等 提出 了 一 种 基于 长 短期 记忆 网 
络 (Long Short-Term Memory，LSTM ) 和 最 大 
池 化 (max pooling ) 的 模型 , 通过 捕获 转发 内 容 、 
传播 者 和 传播 结构 的 动态 变化 来 识别 谣言 传播 
过 程 , 并 利用 新 浪 微 博 数据 进行 了 验证 55 S. A. 
Alkhodair 等 则 提出 了 一 种 基于 word2vec 和 长 短 
期 记忆 循环 神经 网 络 (LSTM-RNN ) 的 突 发 性 
谣言 检测 模型 ( 见 图 3 ) ， 并 利用 Twitter 中 的 
数据 进行 了 实验 ,证 明 该 模型 在 查 准 率 、 查 全 
X. F1 值 等 方面 的 性 能 优 于 其 他 模型 "1。 
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图 3 基于 word2vec 和 LSTM-RNN 的 突 发 性 谣言 检测 模型 [0 
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在 该 模型 中 ， 首 先 ， 推 文 WwW 被 标记 为 
一 系列 单词 (Wi、…、Wr、 Wi); 然后 ， 
word2vec 模型 将 单词 序列 转换 为 回 量 序列 
( 义 !、…、Xr.1、Xr ) ， 并 通过 加 权 连 接 将 其 传 
递 给 LSTM-RNN 模型 ， 最 后 ，LSTM-RNN 模 
型 将 判断 样本 类 别 为 谣言 (R ) 或 非 谣言 (CNR ) , 
并 将 其 作为 最 终 的 输出 向 量 UT. 

3.3.3 个 性 化 服务 与 人 机 交互 

在 个 性 化 服务 方面 ， 相 关 研 究 主 要 围绕 推 
荐 系统 的 个 性 化 展开 。J Wang 等 提出 了 社交 
媒体 个 性 化 框架 ， 并 构建 了 一 个 排名 模型 ， 

够 在 标签 Wr oM 
fitt f RREN H i P DRE SICUT SF 
Belem 等 以 对 象 和 用 户 为 中 心 ， UE 
推荐 进行 了 改进 ， 并 将 其 与 以 对 象 为 中 心 的 推 
荐 方法 进行 了 比较 7. S. Renjith 等 讨论 了 旅游 
推荐 系统 的 发 展 ， 梳 理 了 从 通用 搜索 引擎 到 个 
性 化 推荐 系统 再 到 基于 情境 感知 的 个 性 化 推荐 
系统 的 演变 C。 在 人 机 交互 方面 ， 除 讨论 用 户 
和 互联 网 资源 中 、 信 息 检索 系统 "的 交互 ， 以 
及 人 机 交互 中 的 情感 9 等 方面 外 ， 眼 动 跟踪 技 
术 也 是 广 受 关注 的 主题 。 如 M. J. Cole 等 利用 眼 
动 跟 踪 技 术 ， 对 用 户 的 交互 式 信 息 获 取 过 程 进 
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行 了 建 模 ， 以 预测 用 户 的 知识 水 平 ””; M. Clark 
Pa 分 析 了 用 户 对 电子 邮件 
文本 的 交互 方式 "?. B. Hilberink-Schulpen 等 通 
pus oA Mir i EON a 

会 影响 用 户 的 注意 力 和 观看 方式 。 

nd 主题 演进 趋势 

在 不 同 的 时 间 段 内 ，ZPM 的 研究 主题 有 着 
不 同 的 侧重 。 为 了 解 不 同时 期 的 研究 重点 ， 并 从 
整体 上 分 析 论 文 主题 的 演进 趋势 ， 笔 者 将 2000- 
2020 年 的 论文 划分 为 4 个 时 间 段 ， 对 每 个 时 间 
段 内 的 关键 词 词 频 进 行 统计 与 可 视 化 ， 制 作 不 同 
时 期 的 词 云图 ( 见 图 4) 。 在 4 个 时 间 段 内 ， 信 
息 检 索 (information retrieval ) 始终 是 最 主要 i) 
研究 主题 , 这 与 ITPM 期 刊 的 定位 密切 相关 。 然 而 
随 着 时 间 的 推移 ， 在 2016-2020 年 间 ， 信息 检索 
的 研究 热度 下 降 ， 社 交 媒 体 (social media) 、 情 
感 分 析 (sentiment analysis) 、 深 度 学 习 (deep 
机 器 学 习 (machineleaming) 、 自 然 
文本 挖 


learning ) 、 


语言 处 理 (natural language processing ) 、 


Jii (text mining ) 等 主题 词 的 频率 增高 ， 其 中 社 
交 媒 体 以 33 次 的 词 频 , 超过 了 信息 检索 ( 31 次 )， 
高 的 主题 词 。 


question answering heon 
Informati lon extraction 


nformation: etri Va 
machine learning § Z relevance feedbaci 
"' summarization” & text cla 
i mere processing: lai 


Soosn 
hine learning 3 


lbh 


ita 

on seeking citation analysis user study 

bibliometrics clustering wikipedia E 
3 sentiment analysis 

stem recommender are E: 


nri question answering 
" query expansion 


on ntology evaluation 
= a text eteo al 


puosied 


xə uoreuuojur 


(d) 2016-20204F 
4 2000-2020 年 不 同时 期 /PM 关键 词 词 云 
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利用 CiteSpace 软件 进行 突现 词 探测 ( burst 
detection) ， 以 展现 研究 主题 的 发 展 脉络 和 演 
进 趋势 ， 并 预测 未 来 的 研究 方向 。2000-2020 年 
IPM 突现 词 、 突 现 强度 及 起 止 年 份 见 表 1， 从 
表 1 中 可 以 看 出 ， 在 近 20 年 的 时 间 中 ,共有 
24 个 突现 词 ， 其 中 “信息 检索 ” (information 
retrieval) 的 研究 热度 从 2000 年 开始 ， 持 续 到 
2009 年 ; “排名 ” (ranking) 的 研究 热度 从 
2012 年 开始 ， 持 续 到 2020 年 。 其 他 持续 时 间 较 
K (SELE) 的 突现 词 还 有 : HÆR (world 
wide Web ) 检索 (retrieval ) 相关 性 (relevance )、 
设计 (design ) 、 共 引 (cocitation ) 、 用 户 ( user ) 
等 。 目 前 的 研究 热点 及 前 沿 包 括 : 排名 ( ranking )、 
图 像 ( graph ) .影响 (imnpact ) , 知识 (knowledge )、 
Twitter 、 情 感 分 析 (sentiment analysis) 、 口 头 
语言 (word of mouth) 、 情 绪 (emotion) 等 。 
这 与 此 前 的 分 析 结 果 大 致 吻合 ， 即 信息 检索 在 
很 长 时 间 内 一 直 是 IPM 主要 关注 的 内 容 ， 同 时 
由 于 搜索 引擎 的 发 展 离 不 开 网 页 排名 算法 的 更 


X 1 2000-2020 年 /PM 突现 词 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 ，2022 (1) :24-36 
DOI: 10.13266/j.issn.2095-5472.2022.003 


新 与 优化 ， 因 此 排名 算法 在 持续 较 长 时 间 的 研 
究 热度 后 ， 仍 然 是 目前 的 研究 前 沿 。 此 外 ， 研 
究 主 题 的 演变 还 呈现 出 从 文本 到 图 像 、 从 信息 
到 知识 的 特征 。 从 表现 形式 来 看 ， 信 息 检索 的 
对 象 逐渐 脱离 文本 的 限制 ， 而 开始 关注 具有 更 
丰富 信息 的 图 像 、 音 频 与 视频 ， 这 些 多 媒体 载 
体 除 包含 基本 的 文本 信息 外 ， 还 能 够 传达 出 更 
多 内 容 特征 ， 从 而 便于 对 其 进行 识别 、 检 索 与 
挖掘 。 从 组 织 方式 来 看 ， 相 比 于 信息 而 言 ， 知 
识 更 加 结构 化 ， 也 更 具 利用 价值 。 我 国 《 新 一 
代 人 工 智能 发 展 规划 》 也 提 到 要 重点 突破 知识 
加 工 、 深 度 搜 索 和 可 视 交 互 核心 技术 ,意味 
着 基于 知识 的 分 析 、 挖 掘 及 知识 图 谱 构建 将 成 
为 计算 机 与 人 工 智 能 领域 未 来 的 重点 发 展 方向 。 
社交 媒体 与 情感 分 析 也 是 重要 趋势 之 一 ， 社 交 
媒体 上 用 户 生成 的 海量 文本 信息 与 行为 数据 ， 
为 情感 分 析 与 用 户 行 为 研究 提供 了 必要 的 数据 
基础 ， 使 得 相关 研究 在 计算 机 与 人 工 智能 技术 
的 应 用 下 得 到 了 飞速 发 展 。 


、 突 现 强 度 及 起 止 年 份 表 


突现 词 突现 强度 — 起 始 年 度 终止 年 度 突现 时 间 示 意图 
information retrieval 12.05 2000 2009 

world wide Web 6.64 2000 2006 TE 
document retrieval 4.17 2000 2004 IE 
retrieval 3.44 2000 2005 Á 
relevance 6.62 2001 2008 — ——— 
interface 3.92 2002 2005 — M—————— 
design 3.32 2002 2010 —— HM — 
Science 3.65 2003 2007 o — à —— 
information 3.46 2003 2005 ———sm- t0 
Internet 4.95 2004 2008 — —————————————— 
cocitation 3:22 2004 2010 ——À— o ——— 
query 4.44 2005 2009 —— ———— 
database 3.57 2005 2008 一 一 
user 5.37 2006 2011 OoOO —-——-X-X-S 8000008 
pattern 3.99 2008 2012 一 一 
Search 3.42 2010 2013 a 
ranking 3.35 2012 2020 o u 
graph 3.63 2016 2020 ——————————— 
impact 4.95 2017 2020 — 
knowledge 4.48 2017 2020 
Twitter 7.3 2018 2020 — u 
sentiment analysis 6.14 2018 2020 
word of mouth 4.21 2018 2020 
emotion 3.44 2018 2020 —— 
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rac 

从 期 刊 专辑 也 可 以 看 出 IPM 关注 的 重点 主 
题 及 其 变化 。 在 2010 年 以 前 ， 专 辑 主 题 基 本 
围绕 信息 检索 展开 ， 例 如 在 2000 年 的 “基于 
网 络 的 信息 检索 人 研究” (Web-based information 
retrieval research ) 专辑 中 ， 期 刊 编辑 提 到 ， 互 
联网 的 发 展 扩大 了 信息 检索 的 人 研究 范围 ， 研 究 
人 员 开 始 逐 渐 关 注 网 络 信息 检索 以 及 信息 检索 
系统 的 交互 。 同 时 ， 在 2000-2004 年 间 ， 国 
际 计算 机 学 会 信息 检索 领域 会 议 (ACM Special 
Interest Group on Information Retrieval, ACM 
SIGIR ) 连续 举办 了 五 届 信息 检索 中 的 数学 / JÉ 
式 化 方法 研讨 会 ， 证 明了 在 信息 检索 中 使 用 数 
学 和 形式 化 方法 的 重要 性 , IPM 也 因此 选编 
了 相关 论文 ， 形 成 “信息 检索 中 的 数学 模型 设 
计 、 公 式 化 和 解释 ” 
and explanation in information retrieval using 
mathematics ) 专辑 。 步 入 新 世纪 后 ， 互 联网 的 
迅猛 发 展 、 信 息 技 术 的 更 新 迭代 ， 以 及 数学 统 
计 方 法 的 引进 ， 为 信息 检索 研究 提供 了 源源 不 
断 的 新 动力 ， 推 动 了 研究 内 容 向 更 加 深入 化 发 
展 ， 人 研究 方法 向 更 加 技术 化 转变 。 

互联 网 的 迅猛 发 展 还 带 来 了 爆炸 式 增长 的 
信息 资源 ， 而 繁杂 的 文档 信息 中 则 可 能 包含 许 
多 具有 重要 价值 的 潜在 知识 ， 在 传统 的 文本 处 
理 技 术 与 工具 不 能 满足 新 的 用 户 需求 的 情况 下 ， 
基于 人 工 智 能 的 文本 挖掘 方法 应 运 而 生 ， 能 够 
对 浩瀚 的 文本 资源 进行 有 效 的 挖掘 与 利用 ™。 
同时 ， 随 着 Facebook 与 Twitter 分 别 于 2004 年 
与 2006 年 成 立 ， 社 交 媒体 一 跃 成 为 便捷 的 交流 
工具 和 强大 的 自 媒体 平台 ,用 户 生成 内 容 也 因 
此 成 为 网 络 信息 资源 的 主要 产生 方式 。 由 用 户 
生成 的 信息 资源 难免 摊 杂 许多 个 人 的 观点 和 和 情 
绪 ， 这 些 主观 性 的 言论 大 多 会 涉及 社会 热点 事 
件 或 对 产品 /服务 的 消费 评价 ， 对 此 ， 情 感 分 析 
迅速 发 展 起 来 ， 并 在 与 情 监测 与 商业 营销 等 领 
域 得 到 了 广泛 应 用 。 针 对 文本 挖掘 和 情感 分 析 ， 
IPM 也 制作 了 相关 的 专辑 ， 如 “管理 和 挖掘 多 
语言 文档 ”(Managing and mining multilingual 


documents ) “社交 和 表达 媒体 中 的 情绪 和 情感 ” 


(Model design, formulation 


ChinaXiv 合 作 期 刊 


( Emotion and sentiment in social and expressive 
“文本 中 的 叙事 提取 ” (Narrative 
extraction from texts) 、“ 从 社交 网 络 中 挖 气 有 
价值 的 情报 ” (Mining actionable insights from 
social networks ) 等 。 总 的 来 说 ，IPM 各 个 研究 
主题 之 间 是 互相 联系 的 ， 主 题 的 演进 也 与 网 络 
技术 的 发 展 、 社 交 媒 体 的 兴起 有 着 密 不 可 分 的 
关系 ， 同 时 ， 人 工 智能 等 新 兴 技 术 的 出 现 也 为 
计算 机 与 信息 科学 领域 带 来 了 新 的 机 遇 。 


9s 

笔者 通过 词 云图 与 共 现 网 络 图 的 绘制 ， 将 
IPM ift 20 年 的 研究 主题 划分 为 信息 检索 、 文 本 
分 析 、 用 户 研 究 三 大 类 。 在 信息 检索 方面 ， 相 
关 研 究 从 信息 检索 模型 的 构建 到 搜索 引擎 与 排 
名 算法 ， 全 方位 地 讨论 了 信息 检索 的 理论 与 方 
法 ， 同 时 推进 了 图 像 检 索 技术 的 语义 化 发 展 。 
在 文本 分 析 方面 , 文本 挖掘 是 主要 的 人 研究 方向 ， 
在 此 基础 上 ， 社 交 媒 体 中 的 情感 分 析 成 为 近期 
的 研究 热点 ， 以 知识 图 谱 为 依托 的 知识 研究 与 
分 析 也 得 到 了 持续 的 发 展 和 应 用 。 在 用 户 研究 
方面 ， 新 型 冠状 病毒 肺炎 疫情 发 生 后 ， 健 康信 
息 搜寻 、 谣 言 识 别 与 传播 的 相关 研究 受到 更 多 
关注 ， 服 务 系统 的 个 性 化 与 人 机 交互 的 研究 则 
凸显 了 以 用 户 为 中 心 的 信息 服务 理念 。 

IPM 的 主题 演进 主要 呈现 出 3 种 特征 : 
中 始终 以 信息 检索 为 核心 主题 。 信 息 检 索 及 以 
信息 检索 为 基础 的 内 容 检索 始终 是 IPM 重点 关 


media ) 、 


注 的 主题 。@ 从 文本 与 信息 分 析 向 多 媒体 与 知 
识 分 析 转 变 。 一 方面 ， 研 究 对 象 从 文本 信息 向 


包含 更 多 内 容 的 多 媒体 信息 拓展 ; 另 一 方面 ， 
人 工 智能 等 新 兴 技 术 的 发 展 ， 推 动 了 信息 分 析 
向 知识 分 析 升 级 。@@ 对 用 户 情感 的 深入 分 析 与 
挖掘 。 社 交 媒 体 上 的 用 户 生 成 内 容 催生 了 用 户 
情感 分 析 ， 使 得 用 户 研 究 向 更 深层 次 发 展 。 

从 主题 分 析 结 果 来 看 ，ZPM 刊载 论文 关注 
的 是 计算 机 与 信息 科学 领域 的 重点 问题 ， 使 用 
的 也 是 前 沿 的 计算 机 技术 与 数学 统计 方法 ， 能 
够 从 侧面 展现 出 该 领域 在 国际 上 的 学 术 研 究 与 
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实践 现状 。 然 而 ， 以 单个 期 刊 来 反映 整个 学 科 
领域 的 进展 仍然 具有 局 限 性 ， 后 续 人 研究 可 以 对 


更 多 


高 影响 力 期 刊 进行 计量 研究 与 主题 分 析 ， 


以 更 全 面 地 把 握 该 学 科 领 域 的 演化 规律 。 
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Abstract: [Purpose/significance] This paper analyzes the themes of papers published in /nformation 
Processing and Management from 2000 to 2020, in order to know the thematic focus and evolution trends of 
IPM, and provide references for the development and related research of computer and information science. 
[Method/process] Firstly, based on 1852 research papers in the full-text database of ScienceDirect, this paper 
counted and visualized the titles, abstracts and keywords of the papers to classify the thematic categories. 
Then, this paper analyzed the research themes of each category systematically. At last, it compared the 
thematic focus in different periods and analyzed thematic evolution trends. [Result/conclusion] /PM mainly 
focuses on three themes of information retrieval, text analysis and user research, and presented evolution 
characteristics in general: information retrieval as the core theme, transform from text and information 
analysis to multimedia and knowledge analysis, and in-depth analysis and mining of user sentiments. 
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